1 Introduction

Chacune des molécules biologiques ADN, ARN et protéines interviennent dans la transmission de l’information génétique et sont indispensables à tout être vivant. La modélisation structurelle de l’ADN, de l’ARN et des protéines nous permet de comprendre leur fonction, ce qui a des implications dans de nombreux domaines, tels que l’agriculture et la médecine. (1)

La réussite de la modélisation structurelle informatique dépend sur des données nombreuses et équilibrées, ainsi que sur des annotations de qualité. Bien que des progrès significatifs aient été réalisés dans la prédiction de la structure de l’ADN et des protéines, la modélisation de l’ARN demeure plus compliquée en raison du nombre limité de données disponibles et de ses propriétés structurelles. (2)

Nous présenterons les raisons pour lesquelles la complexité de la structure de l’ARN rend sa prédiction difficile, ainsi que les différents outils existants pour l’identifier et la prédire.

2 ADN et protéines

Les structures d’ADN et de protéines sont généralement plus faciles à prédire que celles de l’ARN puisqu’elles présentent des structures beaucoup plus consistantes et rigides. En effet, l’ADN présente une structure uniforme de double hélice très prévisible qui consiste d’une série répétitive de paires de bases nucléotidiques suivant des règles d’appariement Watson-Crick (A-T et C-G). Elle suit des règles de géométrie simples qui rendent sa structure stable à l’aide d’interactions hydrophobes et de Van der Waals. De ce fait, la stabilité de la structure de l’ADN permet la conservation de l’information génétique. Ses propriétés de superposition, donc l’empilement des bases azotées les unes sur les autres au centre de la double hélice (Figure 2.1 (gauche)), facilitent grandement la modélisation. (3)

(gauche) Représentation de la properiéte de superposition de l'ADN [@DNAGeometry]; (droite) L'ARN n'a pas la propriété d'être superposable [@RNAGeometry](gauche) Représentation de la properiéte de superposition de l'ADN [@DNAGeometry]; (droite) L'ARN n'a pas la propriété d'être superposable [@RNAGeometry]

Figure 2.1: (gauche) Représentation de la properiéte de superposition de l’ADN (4); (droite) L’ARN n’a pas la propriété d’être superposable (5)

Les structures de protéines, quant à eux, bénéficient d’un large éventail de données disponibles. La Protein Data Bank (PDB) contient plus de 200 000 structures de protéines annotées, alors qu’il en existe seulement 10 000 pour les structures de l’ARN. Le repliement des protéines est plus prévisible que celui de l’ARN, se basant sur la séquence primaire de la chaîne d’acides aminés. De plus, les protéines contiennent de l’information évolutive, aidant fortement les algorithmes de prédiction à inférer les séquences d’acides aminés en utilisant des alignements de séquences multiples. (6) Les ARNs sont moins annotés que les protéines, surtout puisqu’il est chimiquement plus difficile d’entreprendre des expériences de cristallographie pour définir leurs structures. (2)

3 ARN

3.1 L’importance de l’ARN

Jusqu’aux années 1980, l’ARN était largement considéré comme un simple intermédiaire entre l’ADN et les protéines. Puisque plus de 95 % du génome ne code pas pour des protéines, ces régions produisant des ARN non codants (ARNnc) étaient souvent considérées comme junk DNA - ou de «l’ADN poubelle». Cependant, cette perspective a maintenant changé. Nous savons aujourd’hui que les ARNnc sont essentiels et jouent des rôles dans la régulation de l’expression des gènes, le remodelage de la chromatine et divers processus cellulaires.

L’ARN est aussi impliqué dans plusieurs maladies. La dérégulation des ARNnc a été associée au cancer, aux troubles neurologiques et aux infections virales telles que la COVID-19. L’amélioration de nos connaissances sur l’ARN peut nous aider à mieux comprendre ces maladies.

Les approches basées sur l’ARN sont appliquées dans plusieurs domaines, par exemple, dans l’agriculture, l’interférence par l’ARN est utilisée pour développer des traits souhaitables, tels que des noix et des arachides non allergènes; en médecine, les vaccins à ARNm ont été développés en réponse à la pandémie de COVID-19. (7)

En déterminant la structure de l’ARN, il est possible de mieux comprendre la fonction de cette molécule essentielle.

3.2 Structure d’ARN

La modélisation de l’ARN est difficile, notamment à cause de sa structure. L’ARN possède un squelette plus flexible que les protéines. Cela rend sa structure plus dynamique et lui permet de changer de forme tout en accomplissant des fonctions biologiques. Elle présente une seule chaîne de nucléotides, donc nous perdons les propriétés de superposition (Figure 2.1 (droite)) offertes par l’ADN (plus possible d’avoir une structure constante de double hélice parfaite).

Cette chaîne de nucléotides, sa structure primaire, permet aux interactions d’appariement de bases de se produire entre les nucléotides d’un même brin. Les motifs structurels, comme les hélices et les boucles, sont des éléments de structure secondaire assemblés à partir de paires de bases Watson-Crick (Figure 3.1 (gauche)) et de paires de bases wobble (G-U). (8)

(gauche) Paires de bases Watson-Crick d'ARN [@RNACanonical]; (droite) Exemple d'une paire de bases non-Watson-Crick (W-C/Hoogsteen)  [@RNANonCanonical](gauche) Paires de bases Watson-Crick d'ARN [@RNACanonical]; (droite) Exemple d'une paire de bases non-Watson-Crick (W-C/Hoogsteen)  [@RNANonCanonical]

Figure 3.1: (gauche) Paires de bases Watson-Crick d’ARN (9); (droite) Exemple d’une paire de bases non-Watson-Crick (W-C/Hoogsteen) (10)

Bien que l’appariement des bases soit souvent considéré en termes de paires Watson-Crick, d’autres appariements sont également possibles. (11) Les paires de bases non-Watson-Crick impliquent différentes interactions nucléotidiques que celles de l’appariement Watson-Crick. Les éléments structuraux secondaires s’assemblent principalement à l’aide de paires de bases non-Watson-Crick (Figure 3.1 (droite)) pour former des structures tertiaires - structures 3D, tels que des kink-turns ou A-mineurs.

Ces structures, appelées modules d’ARN, sont caractérisées par des ensembles de paires de bases non-Watson-Crick orientées et ordonnées. Les paires de bases non-Watson-Crick sont plus faibles que les bases Watson-Crick mais ils jouent un rôle important dans la stabilisation de la structure tertiaire de l’ARN. Les modules ont aussi d’autres rôles fonctionnels importants, comme servir de sites de liaison aux protéines et à l’ARN. (12)

Les modules apparaissent de façon récurrente dans différents ARN. On suppose que le même module présent dans différentes structures d’ARN a une signification fonctionnelle et qu’il y avait un besoin évolutif de le préserver. (13,14) Par exemple, Il y a 83 957 (trouvé sur CaRNAval (Figure 3.3)) occurrences du module représenté dans la Figure 3.2 (gauche), par exemple dans le ribosome 1VQM (Figure 3.2 (droite)).

(gauche) Le module d'ARN, RIN-2 [@RIN-2]; (droite) Le ribosome 1VQM tirée du PDB [@1VQM](gauche) Le module d'ARN, RIN-2 [@RIN-2]; (droite) Le ribosome 1VQM tirée du PDB [@1VQM]

Figure 3.2: (gauche) Le module d’ARN, RIN-2 (15); (droite) Le ribosome 1VQM tirée du PDB (16)

Les occurrences du RIN-2 (A-Minor Type I) [@RIN-2]

Figure 3.3: Les occurrences du RIN-2 (A-Minor Type I) (15)

L’ARN peut également interagir entre lui (ARN-ARN) ou avec d’autres molécules (ARN-ADN, ARN-protéines), formant des structures quaternaires, comme les ribosomes ou les spliceosomes. (8)

4 Représentations des structures de l’ARN

Une façon de modéliser la structure secondaire de l’ARN est d’utiliser la notation Dot-Bracket du package ViennaRNA. Dans cette notation, les nucléotides appariés sont représentés par des brackets () - ou «parenthèses» - et non appariés par des dots . - ou «points». Par exemple, la notation Dot-Bracket du modèle d’ARN 3E5C ressemble à ceci :

GUUCCCGAAAGGAUGGCGGAAACGCCAGAUGCCUUGUAACCGAAAGGGGGAAU 
((((((..((((.(((((....)))))....))))....((....))))))))

La Figure 4.1 (gauche) représente une visualisation de la structure secondaire. Les parenthèses correspondent aux bases appariées (vert) et les points correspondent aux régions non appariées, telles que les multiloops (rouge), les boucles internes (jaune) et les épingles à cheveux (bleu).

(gauche) La structure secondaire de l'ARN 3E5C dessinée en utilisant [ViennaRNA Web Services](http://rna.tbi.univie.ac.at/forna/); (droite) La structure  tertiaire de l'ARN 3E5C tirée du PDB [@3E5C](gauche) La structure secondaire de l'ARN 3E5C dessinée en utilisant [ViennaRNA Web Services](http://rna.tbi.univie.ac.at/forna/); (droite) La structure  tertiaire de l'ARN 3E5C tirée du PDB [@3E5C]

Figure 4.1: (gauche) La structure secondaire de l’ARN 3E5C dessinée en utilisant ViennaRNA Web Services; (droite) La structure tertiaire de l’ARN 3E5C tirée du PDB (17)

Cependant, l’ARN va au-delà de sa structure secondaire. L’ARN est capable de former des structures tertiaires impliquant des paires de bases non-Watson-Crick, déterminées par les points verts dans la Figure 4.1 (droite). Ces structures tertiaires peuvent être représentées sous forme de graphes.

Le modèle Leontis-Westhof classe les configurations géométriques des paires de bases en 12 classes (Figure 4.2). Les interactions arête à arête (par liaisons hydrogène) entre les bases de l’ARN impliquent soit l’arête Watson-Crick, soit l’arête Hoogsteen ou soit l’arête Sugar, et les bases peuvent interagir dans l’une ou l’autre de deux orientations, cis ou trans. (18)

La Classification Leontis-Westhof adapté du [NAKB](https://nakb.org/basics/bases.html)

Figure 4.2: La Classification Leontis-Westhof adapté du NAKB

Dans la Figure 4.3, par exemple, si l’on considère les nœuds 4 et 6, on observe que l’arête reliant ces deux nœuds est tSS, ce qui indique que l’orientation de liaison est trans, l’arête en interaction est Sugar/Sugar et l’orientation du brin est parallèle.

RIN-17 tirée du CaRNAval [@RIN-17]

Figure 4.3: RIN-17 tirée du CaRNAval (19)

Ces représentations sont utilisées par différents programmes informatiques pour trouver des sous-graphes conservés dans un graphe arbitraire donné.

5 Approches informatiques pour identifier et prédire l’ARN

L’identification d’un module dans une structure d’ARN fournit des informations sur la structure secondaire, qui peuvent ensuite donner des informations sur la fonction locale d’une molécule. (12). Un problème fondamental est de prédire comment les séquences se replient dans un certain modèle d’énergie.

Une façon de prédire la structure secondaire de l’ARN est d’utiliser la programmation dynamique en la représentant sous forme de graphe, où les paires de bases sont décrites par des paires d’indices (i, j).

Il existe différents algorithmes pour aborder ce problème. L’un d’eux, Base pair maximization, consiste à trouver la structure possédant le nombre maximal de paires de bases. Cette approche ne peut pas représenter les pseudoknots car elle viole la définition récursive du score optimal (Figure 5.1).

Récursion de *Base pair maximization* [@RNAFoldingAlgorithms]

Figure 5.1: Récursion de Base pair maximization (20)

Cela pose un problème en ce qui concerne la précision de la prédiction de l’ARN parce que les pseudoknots (Figure 5.1) sont abondants dans l’ARN et sont associés à de nombreuses fonctions, notamment le décalage du cadre de lecture ribosomal, l’autoclivage et l’auto-épissage. (21)

Un exemple d'un *pseudoknot* [@Pseudoknot]

Figure 5.2: Un exemple d’un pseudoknot (22)

D’autres algorithmes, comme maximum weighted matching, peuvent traiter les pseudoknots. Cependant, il a été prouvé que la prédiction des structures secondaires à énergie libre minimale avec pseudoknots est un problème NP-difficile (23), ce qui signifie qu’il ne peut pas être résolu en temps polynomial. (20)

6 Approches informatiques de la représentation d’ARN

6.1 CaRNAval

CaRNAval (Catalog of Recurrent Interaction Networks (RINs) in all RNA molecules) est un outil crée par Vladimir Reinharz et al. qui utilise une méthodologie basée sur les graphes pour extraire tous les Réseaux Récurrents d’Interaction (RINs) provenant de bases de données des structures 3D d’ARN. Il cherche tous les patrons des paires de bases et trouve les modifications et réseaux associés.

Les RINs se distinguent des modules d’interaction (ceux qui connectent deux éléments différents de structure secondaire, comme le A-minor Type I/II) par le fait qu’ils ne contiennent aucune information sur la séquence. Ils expliquent plutôt les interactions des nucléotides ainsi que leur nature. Un seul RIN peut donc être associé à plusieurs modules d’interaction. En plus des RINs déjà connus, l’approche utilisée dans CaRNAval permet l’extraction de nouveaux RINs. Elle se démarque des autres approches informatiques par le fait qu’elle recherche des modules sans utiliser leur contexte géométrique ou topologique. (13)

La plateforme CaRNAval englobe plusieurs fonctions et est facile d’utilisation. Elle permet de dessiner un réseau d’interaction que l’on peut ensuite chercher des les RINs, les RINs locaux et les ARNs. Elle contient des catalogues d’annotations de RINs et de RINs locaux dans toutes les structures d’ARN connues. De plus, elle permet la visualisation de structure d’ARN en 2D et en 3D.

6.2 RNA 3D Hub

Le RNA 3D Hub est une meta base de donnée spécialisée développée par le BGSU RNA Structural Bioinformatics Group à l’université Bowling Green State. Il est organisé en plusieurs outils et bases de données permettant une analyse et une compréhension assidue des structures d’ARN, englobé dans un seul endroit. Il est constitué de 4 catégories:

  • RNA Structure Atlas contient des annotations d’appariement et d’empilement de bases, ainsi que d’interactions base-squelette dans les ARN ayant des structures 3D qui contiennent des fichiers PDB. Ces annotations sont générées par l’outil FR3D (Find RNA 3D), un programme qui cherche des structures 3D géométriquement et symboliquement, lancé par Sarver et al. en 2008. (24).

  • Representative Sets est une liste non-redondante de structures 3D. La PDB contient plusieurs structures identiques ou très similaires pour la même molécule du même organisme. Donc, le RNA 3D Hub regroupe dans cette liste des classes d’équivalence de séquences/structures et choisit la meilleure version pour représenter le groupe. Elle est utile lorsqu’il faut entraîner des données ou faire une recherche sur la base de donnée de structures 3D d’ARN entière.

  • RNA Motif Atlas est une large collection de motifs d’épingle à cheveux, interne, de jonctions et de boucles multi-hélice extraits des Representative Sets des structures 3D d’ARN en utilisant FR3D à nouveau. Des groupes de motifs similaires en termes de géométrie et d’interactions d’appariement de bases sont crées par regroupement hiérarchique. Ces derniers sont définis par des identifiants uniques et stables.(25)

  • Resources contient divers autres outils, dont WebFR3D, JAR3D et R3D.

Ces outils sont mis à jour quand il y a de nouvelles structures dans la PDB.

6.3 BayesPairing2

BayesPairing2 est un algorithme conçu par Roman Gendron Sarazin et al.. Cet outil assure une recherche assidue de modules de ARNs dans des séquences. Il remplace son prédécesseur, BayesPairing 1, en assurant une meilleure précision et flexibilité. Cet outil permet l’analyse des structures d’une séquence d’ARN donnée à l’aide d’échantillonnage stochastique de structures secondaires. Il utilise cette information pour ensuite identifier des sites d’insertion de modules potentiels et sélectionner des modules qui peuvent se présenter dans ce contexte structural. De sorte. cela lui permet de réduire le nombre de faux positifs et de rechercher plusieurs modules à la fois. Il peut également entreprendre des recherches à partir d’alignements de séquences.

Pour les paires de bases canoniques, à l’équilibre thermodynamique, il est attendu qu’une séquence d’ARN ait un comportement stochastique et qu’elle puisse adopter quelconques de ses structures secondaires compatibles avec elle-même en respectant les règles canoniques d’appariement de bases Watson-Crick/Wobble avec une probabilité proportionnelle à son facteur de Boltzmann. Ce dernier détermine la probabilité d’un système physique occupant un état d’énergie spécifique à une température donnée.

Puisqu’il n’y a présentement pas de données thermodynamiques associées aux paires de bases non-canoniques et leurs modules, BayesPairing2 utilise une approche probabiliste pour leur modélisation. Il génère un réseau bayésien pour chaque module et les séquences qui peuvent le contenir. Les structures de ces réseaux sont dérivées de paires de bases contenues dans des motifs 3D récurrents et sont regroupées géométriquement. Les réseaux subissent ensuite une décomposition arborescente de sorte à minimiser les dépendances des différentes positions du module entre elles, tout en préservant les probabilités d’émission. Puis, à l’aide de pseudo-comptes, les probabilités d’émission conditionnelles de maximum de vraisemblance sont identifiées pour chaque module. (26)

7 Utilisation de BayesPairing2

Pour tester les outils et comprendre leurs différences, nous avons décidé de comparer les différentes bases de données comprises dans Bayespairing2. Nous avons essayé d’utiliser celle de cantaloops_carnaval_v5, mais elle générait à chaque reprise l’erreur IndexError: list index out of range. Donc, pour notre expérience, nous allons comparer les différents résultats que peuvent émettre les bases de données intégrées dans l’outil. Celles-ci comprennent:

  • RELIABLE: Un sous-ensemble de 60 modules provenant du RNA 3D Motif Atlas avec le plus grand nombre d’occurrences et la plus grande variation de séquence.

  • rna3dmotif: Un ensemble de données des 75 modules les plus récurrents dans la PDB.

  • ALL: Un ensemble de tous les modules qui ont pu être convertis des modèles de 3D Motif Atlas à ceux de BayesPairing2 (426 au total).

  • tdma388_KT: Un ensemble spécialisé des modules ayant un motif Kink-Turn. Utile lorsque nous voulons identifier spécifiquement ce motif. Pour notre expérience, nous avons employé uniquement les trois derniers ensembles mentionnés ci haut.

Puisque nous avons uniquement identifié les séquences de nucléotides, BayesPairing2 a entrepris un échantillonnage non redondant des structures secondaires de l’ensemble complet en utilisant RNAsubopt. La librairie htd entreprend la décomposition arborescente des modules et les probabilités conditionnelles sont apprises à l’aide de pgmpy. (27)

Les scores des modules représentent un ratio de rapport de vraisemblance reflétant la probabilité de la séquence dépendamment du module. Un score élevé indique une très grande similarité à un motif 3D connu dans l’ensemble de donnée utilisé. Nous avons ensuite identifié les motifs visuellement (normalement il est possible de mapper les modules à leurs motifs, mais nous avons rencontré un problème avec certains scripts que nous n’avons malheureusement pas pu réglé). Nous les avons aussi validés en rentrant les séquences sur RNAFold (pour identifier la structure secondaire) et JAR3D, un autre outil qui peut identifier des motifs dans des séquences d’ARN. Aussi, nous pouvons les comparer aux structures d’ARN 2D disponibles sur la plateforme CaRNAval.

7.1 Jeux de données et résultats

Trois séquences ont été choisies via PDB afin d’étudier leurs motifs.

GUAA tetraloop mutant of Sarcin/Ricin domain from E. Coli 23 S rRNA (PDB 1MSY)

>1MSY_1|Chain A|SARCIN/RICIN DOMAIN FROM 23 S RRNA|null 
UGCUCCUAGUACGUAAGGACCGGAGUG
De gauche à droite: Structure 2D de la séquence inférée à l'aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.De gauche à droite: Structure 2D de la séquence inférée à l'aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.De gauche à droite: Structure 2D de la séquence inférée à l'aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Figure 7.1: De gauche à droite: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Dans la figure ci-haut, nous pouvons voir que la structure diffère selon l’ensemble de données utilisé. L’ensemble RELIABLE n’a pas pu démontrer le fameux GUAA tetraloop de la séquence étudiée. Ci-dessous se retrouve le score calculé par BayesPairing2 pour chacun des modules. Remarquons que les modules 33 et 123 inférés par les ensembles rna3dmotif_jan2025 et ALL respectivement réfèrent à la même sous-structure, à un même motif épingle à cheveux. Par contre, c’est uniquement la deuxième structure qui démontre un motif Sarcin/Ricin G-Bulge (module 139). En comparant nos structures à celle inféré par CaRNAval, aucune n’est un match parfait malheureusement. Par contre, nous concluons tout de même, selon les résultats obtenus, que la structure inféré par l’ensemble rna3dmotif_jan2025 est la plus significative. De plus, c’est celle qui donne le plus haut score à ses deux modules.

61 nt human Hepatitis B virus epsilon pre-genomic RNA (PDB 6VAR)

>6VAR_1|Chain A|RNA (61-MER)|Hepatitis B virus (10407) 
GGUUCAUGUCCUACUGUUCAAGCCUCCAAGCUGUGCCUUGGGUGGCUUUGGGGCAUGGACC
De haut en bas: Structure 2D de la séquence inférée à l'aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Figure 7.2: De haut en bas: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Dans la figure ci-haut, remarquons que seules la première et la dernière structure démontrent un K-turn, avec les modules 247 et 557 respectivement. Par contre, ils ont chacun obtenu un score négatif par BayesPairing2. Même en rentrant la séquence sur JAR3D en incluant la structure secondaire, celui-ci ne distingue pas de Kink. De plus, l’épingle à cheveux sont les mêmes pour les seconde et troisième structures, mais diffère pour la première. Il est difficile de déterminer quels représentation est la meilleure, car les résultats obtenus ne sont pas ce que l’on cherchait. Par contre, la boucle interne indiqué par le module 111 dans la seconde structure est celui qui a obtenu le meilleur score.

Crystal structure of an E. coli thi-box riboswitch bound to thiamine pyrophosphate, manganese ions (PDB 2HOJ)

>2HOJ_1|Chain A|thi-box riboswitch|null  
GCGACUCGGGGUGCCCUUCUGCGUGAAGGCUGAGAAAUACCCGUAUCACCUGAUCUGGAUAAUGCCAGCGUAGGGAAGUCGCA
De haut en bas: Structure 2D de la séquence inférée à l'aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Figure 7.3: De haut en bas: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.

Dans la figure ci-haut, nous voyons clairement une jonction reliant trois tiges dans chacune des structures inférées. Par contre, nous nous attendions à avoir un module défini pour la jonction, ce qui n’est pas le cas. En rentrant la séquence sur RNAFold, elle ressemble plutôt à celle inférée par rna3dmotif_jan2025. La structure inférée par ALL nous surprend par son module 651, qui semble être un K-Turn ayant eu un score très élevé, soit de 11,732! En effet, cette structure est celle qui a reçu les plus hauts scores pour ses modules. De plus, la structure 2D du thi-box riboswitch inféré par CaRNAval contient ce même coude. Cependant, cet ensemble de données contient des modules qui se retrouvent seulement qu’une fois dans le 3D Motif Atlas, et la structure sur CaRNAval ne contient pas d’annotations, donc nous devons interpréter ces résultats avec précaution. Chacune des structures contiennent des motifs épingles à cheveux et plusieurs boucles internes. Même si les scores des modules de la deuxième structure inférée sont moins élevés, elle semble être la plus significative, en la comparant à celle trouvée avec RNAFold.

8 Conclusion et perspectives

Les méthodes expérimentales pour déterminer la structure de l’ARN peuvent être coûteuses et prendre beaucoup de temps. Pour relever ces défis, des outils informatiques ont été développés pour prédire la structure de l’ARN et identifier ses modules.

Cependant, les approches informatiques pour déterminer la structure de l’ARN présentent des défis. AlphaFold est un programme d’IA qui prédit les structures protéiques 3D et son succès est dû en grande partie au grand nombre de protéines annotées disponibles. En revanche, la structure complexe de l’ARN rend sa détermination expérimentale plus difficile, ce qui limite les données disponibles. Comme les modèles d’IA dépendent sur de grands ensembles de données, la prédiction de la structure de l’ARN reste plus complexe et moins précise que la prédiction du repliement des protéines. Il existe d’autres outils pour nous aider à comprendre l’ARN, comme BayesPairing2, qui recherche des modules d’ARN au sein des séquences. Cependant, les résultats calculés par les diverses approches peuvent différer, ce qui peut rendre les conclusions difficiles à émettre. Tout de même, c’est un sujet de recherche en plein essor, avec de nombreuses nouvelles approches computationelles qui voient le jour. Par exemple, depuis la sortie de CaRNAval, de nouvelles façons beaucoup plus rapides pour trouver des RINs a été établie. Cet article par Vladimir Reinharz et al. démontre comment le fait de penser aux structures secondaires d’ARN comme étant des graphes avec une coloration des arêtes permet de créer un algorithme rapide et efficace. (14). Un autre exemple est la création de l’outil RNAMoIP, aussi par Vladimir et al., qui peut déterminer des pseudo noeuds dans les structures 3D d’ARN, un motif très difficile à prédire. (21)

Pour conclure, comprendre l’ARN commence par connaître sa structure. La détermination des structures d’ARN nous aide à assimiler leurs rôles fonctionnels et permet , par exemple, d’identifier les ARN impliqués dans les maladies où l’ARN joue un rôle central et de créer des remèdes ou des moyens de prévention, comme cela a été le cas avec le virus du SARS-CoV-2. Elle peut aussi avoir des avancées en agriculture, pour augmenter le rendement des cultures ou bien en industrie, pour la production de biocarburant. (7) Bref, les avancées informatiques sont primordiales pour trouver les bons motifs dans les structures d’ARN afin de tirer tous les avantages que l’ARN peut nous offrir.

Références (incluant des images)

1.
Committee on Research Opportunities in Biology. NRC (US). Molecular structure and function. National Academies Press (US) [Internet]. 1989; Available from: https://www.ncbi.nlm.nih.gov/books/NBK217812/
2.
Kwon D. RNA function follows form – why is it so hard to predict? Nature [Internet]. 2025; Available from: doi: https://doi.org/10.1038/d41586-025-00920-8
3.
Mu ZC, Tan YL, Liu J, Zhang BG, Shi YZ. Computational modeling of DNA 3D structures: From dynamics and mechanics to folding. Molecules (Basel, Switzerland), 28(12), 4833 [Internet]. 2020; Available from: doi: https://doi.org/10.3390/molecules28124833
4.
5.
6.
Torrisi M, Pollastri G, Le Q. Deep learning methods in protein structure prediction. Computational and structural biotechnology journal, 18, 1301–1310 [Internet]. 2020; Available from: doi: https://doi.org/10.1016/j.csbj.2019.12.011
7.
Haseltine WA, Patarca R. The RNA revolution in the central molecular biology dogma evolution. Internation Journal of Mocecular Sciences [Internet]. 2024; Available from: doi: 10.3390/ijms252312695
8.
Zhang J, Fei Y, Sun L, Zhang QC. Advances and opportunities in RNA structure experimental determination and computational modeling. Nature Methods [Internet]. 2022; Available from: https://doi.org/10.1038/s41592-022-01623-y
9.
10.
11.
Leontis NB, Lescoute A, Westhof E. The building blocks and motifs of RNA architecture. Current Opinion in Structural Biology [Internet]. 2006; Available from: https://doi.org/10.1016/j.sbi.2006.05.009
12.
Cruz JA, Westhof E. Sequence-based identification of 3D structural modules in RNA with RMDetect. Nature Methods [Internet]. 2011; Available from: https://doi.org/10.1038/nmeth.1603
13.
Reinharz V, Soulé A, Westhof E, Waldispühl J, Denise A. Mining for recurrent long-range interactions in RNA structures reveals embedded hierarchies in network families. National Library of Medicine [Internet]. 2018; Available from: doi: 10.1093/nar/gky197. PMID: 29608773; PMCID: PMC5934684.
14.
Soulé A, Reinharz V, Sarrazin-Gendron R, Denise A, Waldispühl J. Finding recurrent RNA structural networks with fast maximal common subgraphs of edge-colored graphs. PLoS Comput Biol 17(5): e1008990 [Internet]. 2021; Available from: https://doi.org/10.1371/journal.pcbi.1008990
15.
RIN - 2 [Internet]. Available from: https://carnaval.cbe.uqam.ca/rin/2/
16.
The structure of the transition state analogue "DAN" bound to the large ribosomal subunit of haloarcula marismortui [Internet]. Available from: https://doi.org/10.2210/pdb1VQM/pdb
17.
Crystal structure of the SMK box (SAM-III) riboswitch with SAM [Internet]. Available from: https://doi.org/10.2210/pdb3E5C/pdb
18.
Leontis NB, Westhof E. Geometric nomenclature and classification of RNA base pairs. Cambridge University Press [Internet]. 2001; Available from: doi:10.1017/S1355838201002515
19.
RIN - 17 [Internet]. Available from: https://carnaval.cbe.uqam.ca/rin/17/
20.
Eddy SR. How do RNA folding algorithms work? Nature Biotechnology [Internet]. 2004; Available from: https://doi.org/10.1038/nbt1104-1457
21.
Loyer G, Reinharz V. Concurrent prediction of RNA secondary structures with pseudoknots and local 3D motifs in an integer programming framework. Bioinformatics (Oxford, England), 40(2), btae022 [Internet]. 2024; Available from: https://doi.org/10.1093/bioinformatics/btae022
22.
File:pseudoknot.svg [Internet]. Available from: https://commons.wikimedia.org/wiki/File:Pseudoknot.svg
23.
Bonnet É, Rzążewski P, Sikora F. Designing RNA secondary structures is hard. Journal of Computational Biology [Internet]. 2020; Available from: DOI: 10.1089/cmb.2019.0420
24.
Sarver M, Zirbel CL, Stombaugh J, Mokdad A, Leontis NB. FR3D: Finding local and composite recurrent structural motifs in RNA 3D structures. J Math Biol 2008 Jan;56(1-2):215-52 [Internet]. 2008; Available from: https://doi.org/10.1007/s00285-007-0110-x
25.
Petrov AI, Zirbel CL, Leontis NB. Automated classification of RNA 3D motifs and the RNA 3D motif atlas. RNA [Internet]. 2013; Available from: doi:10.1261/rna.039438.113
26.
Sarrazin-Gendron R, Yao HT, Reinharz V, Oliver CG, Ponty Y, Waldispühl J. Stochastic sampling of structural contexts improves the scalability and accuracy of RNA 3D module identification. bioRxiv 834762 [Internet]. 2020; Available from: https://doi.org/10.1101/834762
27.
Sarrazin-Gendron R. RNABayesPairing2. GitHub [Internet]. 2019; Available from: https://jwgitlab.cs.mcgill.ca/sarrazin/rnabayespairing2